home *** CD-ROM | disk | FTP | other *** search
/ TOS Silver 2000 / TOS Silver 2000.iso / Falcon / CENTEK / CENTEK.DOC / CT2BENCH.TXT < prev    next >
Encoding:
Text File  |  1999-01-20  |  4.7 KB  |  99 lines

  1. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  2.   This is the french version. The english version will be available on our
  3. web site as soon as possible.
  4. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  5. Analyse des BENCHs de la CENTurbo II Rev B
  6.                 et de l'AFTERBURNER 040.
  7.                 
  8. CENTEK - 25 Juin 98
  9.  
  10. La CT2 multiplie réellement par 6 (31,2Mo / 5,3Mo) la bande passante
  11. de la RAM, à condition que les programmes soient bien codés (alignement
  12. du code sur 32-Bit !).
  13.  
  14. Le bus FALCON (ST-Ram) est à 25 MHz avec la CT2 et 16 MHz avec l'AB40.
  15. Et ceci se voit sur les tests graphiques qui se passent beaucoup 
  16. en ST-Ram (c'est là que se trouve la ram vidéo !!)
  17.  
  18. Le seul test intéressant de GEMBENCH c'est l'Integer Div qui donne 
  19. 329% pour l'AB40 et 315% pour la CT2. Pourquoi ?
  20. D'un coté, le 040 exécute un DIVU.W en 27 cycles d'horloge et 
  21. il est cadencé à 32 MHz. Sur le 030 (Falcon d'origine et CT2), le 
  22. DIVU.W est exécuté en 44 cycles d'horloge (50 MHz sur CT2) !
  23.  
  24. Pour la CT2, nous avons la régle de trois suivante :
  25.   (44/44)  44 cycles pour le 030
  26. x (50/16)  50 MHz pour la CT2 et 16 MHz pour le F030 d'origine.
  27. = 3,125    soit 312 %
  28.  
  29. Pour l'AB40, nous avons la régle de trois suivante :
  30. (44/27)    44 cycles pour le 030 et 37 cycles pour le 040
  31. x (32/16)  32 MHz pour l'AB40 et 16 MHz pour le F030 d'origine.
  32. = 3,259    soit 326 %
  33.  
  34. La théorie et la réalité sont très proches...
  35.  
  36. Il faut dire que le reste des tests de GEMBENCH n'est pas très sérieux !
  37. En effet, ce logiciel, qui est malheureusement la référence possède
  38. des tests qui sont fortement en rapport avec NVDI et exploite donc les
  39. avantages de NVDI sans les inconvénients.
  40.  
  41. En dehors de la partie graphique, la partie CPU (INTEGER DIV, FPU, RAM 
  42. et ROM access) vaut son pesant d'absurdité !!
  43. En effet, si vous comparez l'écart entre CT2 et AB40 pour l'accès RAM 
  44. chez GEMBENCH et celui chez NEMBENCH ou DAVEBENCH, vous pouvez vous 
  45. poser de grandes questions et comme il n'est jamais trop tard pour 
  46. comprendre... :
  47. Gembench a des routines de test qui ne tiennent pas compte du temps 
  48. machine pris pour s'exécuter. Ce qui signifie que plus le processeur a 
  49. un gros cache et plus le test tourne vite (puisque d'avantage dans le
  50. cache !), ce qui N'A RIEN A VOIR avec le pourquoi du test, à savoir 
  51. la capacité du CPU à accéder à la RAM !!
  52. Par contre NEMBENCH et DAVEBENCH tiennent compte du temps des
  53. instructions du programme et utilisent des MOVE pour lire les octets
  54. en RAM.
  55. C'est comme le bon vieux problème d'utiliser en labo des appareils de
  56. mesure qui n'altèrent pas le phénomène mesuré. Dans notre cas, il faut
  57. bien entendu soustraire au résultat le temps d'execution de la routine
  58. de test !
  59. Ce que GEMBENCH ne fait pas mais que NEMBENCH ET DAVEBENCH font !
  60. C'est ainsi que le test RAM ACCESS de Gembench donne tant 
  61. d'avantage pour l'AB40, car le 040 a un cache de 2 x 4 ko contre 
  62. 2 x 256 octets pour le 030 de la CT2 !! Mais si on fait les tests 
  63. cache OFF, là, la CT2 domine l'AB40 avec son BUS FAST-RAM à 50 MHz et 
  64. son CPU à 50 MHz contre le bus 32 MHz et le CPU à 32 MHz de l'AB40 !!
  65.  
  66. Il est facile de faire les calculs pour prouver cela:
  67. Pour la CT2:
  68. Une ligne de cache (4 LONGS) est lue en BURST à 50 MHz
  69. en 5 + 2 + 2 + 2 = 11 cycles 50 MHz avec la ram EDO 60 ns.
  70. De plus l'instruction MOVE.L prend 5 cycles sur le 030.
  71. Lors du BURST, le premier LONG est envoyé de suite dans l'unité 
  72. d'exécution du processeur et exécuté en même temps que l'arrivée des 3 
  73. LONGS suivants (en 2+2+2 cycles !), soit un temps machine de seulement 
  74. 3 MOVE à compter, soit 5+5+5=15 cycles. C'est là tout l'intérêt 
  75. d'avoir un CPU à 50 MHz permanant au lieu de DX2 (50 MHz losqu'il ne 
  76. prend pas le bus et 25 MHz lorsqu'il transfert sur le bus, donc lors 
  77. du BURST !!!).
  78. Concluons : nous avons donc 12 cycles de transfert + 15 cycles
  79. d'exécution, soit un total de 26 cycles à 50 MHz.
  80. Ce qui revient à dire que 16 octets sont lus en 26 cycles, soit
  81. 16/26 x 50 000 000 = 30.77 Mo / seconde !   C'est pas loin !
  82.  
  83. Pour l'AFTERBURNER 040:
  84. Une ligne de cache est lue en BURST à 32 MHz
  85. en 3 + 2 + 2 + 2 = 9 cycles 32 MHz (ne gère pas la fonction EDO, sinon on 
  86. aurait pu avoir du 3 + 1 + 1 + 1 = 6 - dommage !).
  87. L'instruction MOVE.L s'exécute sur le 040 en seulement 2 cycles !
  88. Soit 3 MOVE.L en 6 cycles.
  89. Concluons : nous avons donc 9 cycles de transfert + 6 cycles
  90. d'exécution, soit un total de 15 cycles à 32 MHz.
  91. Ce qui revient à dire que 16 octets sont lus en 15 cycles, soit
  92. 16/15 x 32 000 000 = 34,13 Mo / seconde ! C'est pas loin du tout !
  93.  
  94. Voila, vous savez maintenant très simplement calculer la bande 
  95. passante d'un processeur sur un bus d'unité centrale...
  96.  
  97.  
  98. CENTEK
  99.